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摘 要 : 针对 泛 化 会 造成 数据 信息 损失 量 较 大 ， 且 这 缺陷 会 随 数据 维度 变 大 而 越 明显 的 问题 ， 提 出 一 种 基于 局 部 划分 
的 匿名 算法 。 在 确保 kk- 匿名 和 1- 匿 名 的 前 提 下 ， 基 于 敏感 属性 栏 值 约束 和 记录 间距 离 将 数据 表 横 向 分 成 若干 个 桶 ， 然 
后 对 每 个 桶 基于 属性 间 的 关联 纵向 分 成 多 栏 ， 最 后 对 同一 桶 中 各 栏 中 的 数据 进行 随机 重 排 。 实 验 结果 表明 ， 在 处 理 高 
维 数据 时 ， 与 LGAA-CP 算法 相 比 , 信息 损失 量 减少 了 47% 到 183%， 关 联 关系 保留 率 提高 了 24%~118%。 与 Slicing 算 
法 相 比 ， 信 息 损 失 量 相差 在 1.5% 之 内 ， 关 联 关 系 保 留 率 提高 了 8.9% 到 22.8%。 通 过 分 析 ， 该 算法 在 同时 确保 高 维 数据 
的 隐私 保护 能 力 和 数据 可 用 性 方面 是 有 效 的 。 
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Anonymous algorithm based on local partition 
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Engineering & Technology Center, Wuhan 430062, China) 


Abstract: Aiming at the problem that the generalization causes a large amount of loss of data information, and this defect would 
become more obvious as the data dimension becomes larger, this paper proposed an anonymous algorithm based on local 


partitioning. To ensuring k-anonymity and l-diversity, based on the value constraint of sensitive attribute column and the distance 


between records, horizontally divide the data table into several buckets. And then based on the relationship between the attributes, 
longitudinally divide the buckets into multiple columns. Finally, randomly rearrange the columns in the same bucket. The 
experimental results show that when dealing with high dimensional data, compared with LGAA-CP algorithm, the loss of 
information is reduced by 47% to 183%. the retention rate of the relationship ls increased by 24% to 118%. Compared with the 
Slicing algorithm, the loss of information between the two is within 1.5%. the retention rate of the association is increased by 
8.9% to 22.8%. The analysis show that the algorithm is effective in ensuring both high-dimensional data privacy protection and 
data availability. 


Key words: privacy-preserving data publishing; k-anonymity; l-diversity; sensitive attribute column value constraint 


而 实现 隐私 保护 P21。 
作为 该 领域 的 研究 热点 ， 当 前 很 多 学 者 在 这 方面 做 了 大 和 
伴随 信息 技术 的 广泛 使 用 和 大 数据 技术 的 日 益 普 及 ， 数 据 的 研究 ， 众 多 数据 发 布 模型 纷纷 被 提出 ， 如 大 匿 名 模型 %]、1/ 
开放 已 经 是 大 势 所 趋 。 由 于 政府 、 部 门 、 企 业 所 开放 的 数据 中 匿名 和 二 接近 性 9 等 ,但 是 这 些 研 究 存在 的 问题 之 一 是 虽然 
含 了 大 量 的 隐私 信息 ， 若 将 数据 直接 以 原始 形式 发 布 出 去 ， 较 好 地 实现 了 隐私 保护 ， 但 是 信息 损失 量 大 ， 数 据 可 用 性 低 
必然 会 造成 隐私 灌 吉 。 在 此 背景 下 ， 数 据 发 布 隐私 保护 针对 这 一 问题 ， 很 多 学 者 在 实现 隐私 保护 的 同时 ， 开 始 考 虑 数 
(privacy-preserving data publishing，PPDP) 这 一 技术 被 提出 。 据 可 用 性 。2012 年 徐 勇 等 人 提出 基于 属性 权重 的 -匿名 算法 
与 利用 数据 加 密 和 访问 控制 等 技术 防止 未 授权 者 获取 数据 的 传 ”WAK-anonymity00， 解 决 了 重要 信息 损失 量 大 的 问题 ， 但 加 大 
统 隐私 保护 方法 不 同 ，PPDP 的 目的 是 尽量 保持 发 布 数据 的 可 了 其 他 数据 的 信息 损失 量 ,而 且 各 数据 间 关 联 关系 损失 量 很 大 。 
用 性 ， 同 时 防止 数据 使 用 者 识别 出 敏感 信息 所 对 应 的 个 体 ， 从 ”2012 年 李珊珊 等 人 提出 基于 聚 类 的 数据 敏感 属性 匿名 保护 算 
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上 所 述 ， 这 些 方法 很 难 同时 确保 具有 较 好 的 隐私 保护 能 力 和 数 
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形成 的 泛 化 层次 格 , 找 出 敏 


性 的 关系 属性 顶点 集 rset ， 然 
划分 成 多 个 桶 ? 再 根据 srsert 与 rset 将 同 桶 


感 属性 顶点 集 srset 和 不 包含 敏感 属 


后 根 1 


向 划分 形成 栏 ， 最 后 把 同一 桶 中 各 栏 的 数据 进行 重 排 。 从 而 在 
实现 隐私 保护 的 同时 ， 确 保 发 布 的 数据 能 


1 ”匿名 算法 理论 基础 


居 srset 将 数据 表 了 进行 横向 


中 不 同属 性 进行 纵 


有 更 高 的 可 用 性 。 


假设 要 发 布 的 数据 表 7 已 经 舍 去 标识 符 属 性 ， 如 姓名 、 身 


份 证 号 等 。 数据 表 7 包含 的 属性 A={4,4…,A,…,4,,S} ,其 


中 AQz<iz<n) 为 准 标识 符 属性 ，s 为 敏感 属性 。 
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若 一 棵 树 中 任意 存在 父子 关系 


的 节点 均 满 足 泛 化 关系 ， 则 称 这 棵 树 为 泛 化 层次 树 。 在 属性 A 
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外 ， 若 泛 指 属性 4 泛 化 层次 树 
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的 某 个 节点 时 ， 记 做 node,。 
泛 化 格 g 。 若 一 个 图 中 任意 存在 边 的 顶点 均 满 足 


中 第 个 节点 记 做 4，， 其 值 域 为 
比 关系 。 若 树 中 节点 A 与 


) < D(Aj) 一 定 成 立 。 另 
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node,node,,…,node, 的 组 合 。 且 图 中 的 任意 一 条 边 vv, 的 起 始 


顶点 vy 与 终止 顶点 v, 满足 以 下 条 件 : 


vy <v;; 有 且 仅 有 一 个 


1ode, ,使 得 wode <v,node.， 而 两 个 顶点 中 的 其 余 节 点 相同 。 
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距离 所 做 的 一 个 横向 的 划分 。 


腿 设 一 张 数据 表 7 被 划分 n 个 桶 


B,B,,...B, MT B=7T,Evk jp BMB,=G, (0<k, jn 


定义 5 栏 C。 数 据 表 7 中 的 一 个 桶 


8B 基于 属性 间 的 关联 


关系 , 可 被 划分 为 m 栏 , 则 [°C =B, 且 WE Cj C= ， 


dz]j, kz<m). 


定义 6 顶点 v 约束。 记录 t 中 的 属性 
属性 节点 ， 那 么 该 属性 的 取 值 在 其 对 应 的 属性 节点 值 域内 ， te 


在 顶点 vy 中 有 对 应 的 


T 
表 1 符号 标志 
符号 意义 
A 准 标志 符 属性 
S 敏感 属性 
rset 非 敏感 属性 关联 关系 顶点 集合 
srset 包含 敏感 属性 关联 关系 顶点 合 
TSer 泛 化 层次 树 
频繁 泛 化 层次 树 ， 即 所 有 节点 支持 度 均 大 于 支持 度 阔 值 的 化 
层次 树 
node, 属性 A, 泛 化 层次 树 中 的 节点 
gi 泛 化 格 
如， 频繁 泛 化 格 ， 即 顶点 的 支持 度 均 大 于 支持 度 阔 值 的 泛 化 格 
顶点 ,其 中 vy es g, ,由 i 个 泛 化 层次 树 中 的 节点 nodel，mode， 
" ,L, node, 组 合 
桶 
w 属性 权重 
SupTh 支持 度 阔 值 
mc 栏 中 属性 列 数 最 大 值 
C 栏 
1 数据 表 记 录 
1,Ar 记录 1 的 第 i 个 分 类 型 属性 
tA 记录 1 的 第 i 个 数值 型 属性 
conTh 置信 和 度 闵 值 


2 ”基于 局 部 划分 的 匿名 算法 ASG-LS 


2.1 


算法 总 体 概述 
为 确保 在 隐私 信息 不 被 泄露 
间 的 关联 关系 保持 率 ， 从 而 提高 数据 的 可 用 性 ， 针 对 发 布 数 据 


的 情况 下 ， 提 升 所 发 布 的 数 
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中 存在 属性 间 的 关系 随 值 域 的 变化 而 变化 的 情形 ， 提 出 一 种 基 


于 局 部 划分 的 ASG-LS 匿名 算法 ,i 
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存 到 含 敏感 属性 关联 顶点 集合 srsert ,不 包含 敏感 
存 到 非 敏感 属性 关联 顶点 集合 rser 
£2] 名 处 A 其 和 


据 表 的 划分 ， 及 


于 找 出 属性 值 域 
F 按 顶点 重要 度 降序 ， 将 包含 敏感 属 


] ASG 自 


间 的 多 维 多 层 
性 的 关系 保 
昼 性 的 关系 保 
Ph; LS 算法 则 用 于 实现 对 数 


本 思想 是 基于 敏感 属性 值 约束 


有 更 高 的 利 / 
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和 记录 间距 离 将 数据 表 横 向 分 成 若干 个 桶 ， 再 对 每 个 桶 基于 属 
性 间 的 关联 纵向 分 成 多 栏 ， 
随机 重 排 ， 最 终 使 得 发 布 的 数 扩 
价值 。 


2.2 属性 关联 关系 集合 生成 算法 ASG 


ASG 算法 完成 LS 算法 的 预 处 理工 作 , 基于 
目的 是 找到 属性 值 域 间 的 多 允 
保存 包含 关联 关系 的 
感 属性 关联 关系 集合 syset 中 , 而 其 
et 中 。ASG 算法 如 2 所 示 。 
蛙 分 为 四 步 : 
层次 树 。 从 叶 


泛 化 树 实现 ， 
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普通 关联 关系 集合 ys 
该 算法 的 主要 实现 过 
a) 生 成 频繁 泛 化 
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据 节 点 包含 的 属性 
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在 隐私 保护 的 同时 ， 使 数据 具 


维 多 


值 域 在 数据 表 中 出 


节点 的 支持 度 , 若 支 持 度 > 文 持 度 


标记 与 之 直接 相逢 


F Apriori 和 层次 
层次 关联 关系 ， 
顶点 ， 将 包含 敏感 属性 的 


他 顶点 保存 到 


子 节点 开始 ， 基 于 ) 
上 的 次 序 遍 历 泛 
现 的 概率 ， 
闵 值 supTh , 贝 
的 节点 ， 反 之 则 删除 该 


之 相连 的 节点 。 


遍历 过 程 


P 知 节点 


到 频繁 泛 化 层次 树 。 


b) 将 频繁 泛 化 层次 树 转 为 泛 化 格 。 
接 产生 泛 化 格 : 选取 两 棵 不 同属 
接生 成 泛 化 格 g, ， 其 顶点 为 两 棵 树 中 的 节点 的 组 合 


两 个 顶点 包含 的 节点 组 合 中 只 有 
关系 ， 而 其 余 节 点 相同 时 ， 则 依据 泛 


己 被 标记 , 则 


频繁 泛 
性 的 频繁 泛 化 


组 对 应 的 属 | 


度 搜 索 
层次 树 。 根 


依次 计算 每 个 
保留 该 节点 ， 
节点 ， 继 续 遍 历 与 
直接 保留 节点 。 
最 终 使 得 泛 化 层次 树 中 的 所 有 节点 的 支持 度 均 > SupTh， 有 


rt 
SS 
em 


层次 树 之 间 连 
层次 树 ， 两 两 连 


若 其 中 某 


生 节 点 存在 泛 化 


化 关系 生成 一 


条 有 向 边 。 


频繁 泛 化 层次 树 与 频繁 泛 化 格 fo, ,连接 产生 泛 化 格 g, : 若 


频繁 泛 化 格 fo, ,没有 包含 该 频繁 泛 化 
采用 上 述 方法 生成 泛 化 格 g,。 


0o) 生 成 敏感 及 非 敏感 属性 关联 关系 集合 


顶点 开始 ， 基 于 


历 计算 泛 化 格 g， 


于 设 定 阐 值 ， 则 保存 该 项 点 ， 
别 保存 到 敏感 属性 关联 关系 集合 srset 或 非 敏感 属 
然后 标记 与 之 ] 


集合 rsert 中 ? 


次 相对 最 大 和 各 顶点 中 对 应 节点 值 域 相 交 为 空 
变 成 频繁 泛 化 格 。 

d) 实 现 顶 点 的 重要 度 排 序 。 为 
在 本 文 后 续 LS 算法 中 优 # 


度 搜索 的 思想 ， 


层次 树 ， 则 进行 连接 ， 
否则 不 进行 连接 。 
。 从 没有 边 指 向 的 


按 层次 ， 从 下 往 上 的 次 序 遍 


中 各 项 点 的 支持 度 与 置信 度 。 若 
根据 其 是 否 包 含 


直接 相 过 


者 均 大 于 等 
敏感 属性 ， 分 
性 关联 关系 


的 项 点， 反之 贝 
点 。 遍 历 过 程 中 若 项 点 已 被 标记 ， 则 直接 保留 顶点 。 最 终 关 联 


关系 集合 中 保存 了 泛 化 格 中 具有 关联 关系 、 顶 点 包含 的 节点 层 


呆 留 更 多 有 月 


一 


1 除 该 顶 


的 顶点 ， 泛 化 格 


的 关联 关系 ， 
E 按 包含 重要 关联 关系 的 顶点 进行 划 


分 , 因此 需要 将 关联 关系 集合 srset 中 各 顶点 按 重 要 度 降序 排序 。 

顶点 v 的 重要 度 value(v) 是 评价 一 个 顶点 中 包含 
关联 关系 是 否 重要 的 指标 。 它 由 顶点 中 所 包含 的 所 有 节点 的 层 
次 和 顶点 的 置信 和 度 共同 决定 ， 为 此 ， 首 先 利 用 式 (1) 计 算 节 点 


[Mal 


node; 归 一 化 后 的 层次 值 。 其 中 ， lev,,j, 为 节点 node 在 泛 化 
次 树 中 的 层次 ， ev 为 泛 化 层次 树 的 层次 最 大 值 。 
lev, sae, lev,,o 
lev(node;, ]=————— ， 
le EVinax -le EVoor 
(1) 


然后 ， 再 利用 式 (2) 计 算 顶 点 v 的 重要 度 value(v) 。 共 中 ， 


w 表示 数据 表 7 中 属性 4 的 权重 , n 为 项 点 vy 中 包含 节点 的 个 
数 ， conf (vy) 为 顶点 v 的 置信 和 度 。 

value(W) = wlev(node,)+conf (y) ， 2) 
算法 1 ASG 算法 


输入 : 数据 表 了 ， 属 性 泛 化 层次 树 TSer ， 置 信 度 六 值 confTh ， 支 持 度 
闷 值 supTh ， 栏 中 属性 列 最 大 值 mc ， 属 性 权重 w ; 


输出 : 含 敏感 属性 关联 顶点 集合 syset ， 非 敏感 属性 关联 顶点 集合 yyet 。 

1. ”遍历 Tset ， 计算 树 中 各 节点 支持 度 ， 剪 枝 支 持 度 小 于 支持 度 闵 值 
supTh 的 节点 ， 找 出 频繁 泛 化 层次 树 ， 并 保存 到 频繁 泛 化 层次 树 集 
合 FTSer: 

2， FT7ger 中 所 有 频繁 泛 化 层次 树 ， 两 两 连接 生成 泛 化 格 ， 并 加 入 泛 化 
格 集合 中 ; 

3. ”for (每 一 个 ge 泛 化 格 集合 ) 


4. ”所 有 没有 边 指 向 的 项 点 ， 按 层次 把 项 点 入 队 

5. while ( 队 不 为 空 ) 

6. 让 顶点 没有 被 标记 

7.， ”计算 汉化 格 g, 中 各 顶点 的 置信 度 conf 和 支持 度 support ; 


8. 证 support > supTh EH conf >conTh 
9. ” 按 该 顶点 是 否 包 含 敏感 属性 ， 分 别 保 存 到 敏感 属性 关联 关系 集合 
srsert 和 非 敏感 属性 关联 关系 集合 rserf ; 


else 

10. ”删除 该 项 点， 与 之 直接 相连 的 顶点 入 队 ; 
end if 

end if 

end while 


1.” 泛 化 格 8 加 入 频繁 泛 化 格 集合 fgset ; 


end for 
2. fgset 中 各 泛 化 格 gS5 FTSet 中 各 频繁 泛 化 层次 树 连 接 ， 并 加 入 新 
的 泛 化 格 集合 中 ; 


3.，” 转 步骤 3 迭代 ， 直 到 泛 化 格 中 顶点 包含 的 节点 数 > pc ; 
4. ”基于 顶点 包含 的 各 属性 权重 Ww， 计算 各 顶点 重要 度 value(v) ， 并 按 
中 的 各 顶点 ; 


顶点 重要 度 降序 排序 srsert 


5. return srset ,rsert; 
2.3 ”基于 局 部 划分 的 LS 算法 
LS 算法 基于 Slicing 思想 和 关联 关系 集合 ， 采 


局 部 划分 
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LS 算法 如 算法 2 所 示 。 


该 算法 的 主要 实现 过 程 分 四 


步 : 


a) 对 数据 表 横 向 分 


为 减少 数据 的 信息 损失 量 ， 
分 时 每 次 从 srset 中 取出 一 


对 数据 表 进 行 横向 划分 桶 。 
个 重要 度 值 最 大 的 顶点 v， 然 后 从 数 


划 


据 表 了 中 随机 取出 一 条 满足 顶点 v 值 约束 的 记录 1 ， 加 入 桶 万 ， 


进而 从 数 
近 约 束 的 记录 到 桶 p。 


为 挑选 出 满足 距离 最 近 约束 的 记录 ， 


居 表 7 中 挑选 天 条 满足 敏感 属性 栏 值 约束 和 距离 最 


必须 计算 数据 表 中 任 


意 一 条 记录 与 记录 1 的 距离 ， 其 值 采 月 
属性 间 的 距离 分 为 数值 型 
记录 1+ 的 第 i 个 数值 型 属 1 
属性 间 的 距离 为 qisz(1,A,t, 和)， 记 录 1 的 第 i 个 分 类 型 属 | 


离 来 度量 。 
性 间 的 距离 ， 
型 


Es 


可 
三 可 


两 条 记录 的 属性 间 的 距 
性 间 的 距离 与 分 类 型 
生 与 记录 4, 的 第 


> 
[ml 


i 个 数 


三 | 


[过 
十 


与 记录 4 第 i 个 分 类 型 属性 间 的 距离 为 dist(1,Ar,1,A')。 


数值 型 闪 


标识 符 属 ; 


dist(t, A’',t, A’ )= 


D(1sAh?) 表示 元 组 


1D(ts4)-D(iA4')| 为 取 两 个 属 


p(s) -D(a A’) 


生 间 的 距离 qisz(1, A ,1 A”): 


G3) 


六 的 第 


屋 


性 值 之 差 


max(TA”) 一 min(74”) ， 
个 数值 型 


付 标 识 符 的 取 值 ， 


的 绝对 值 ，max(7A'] 


表示 数据 表 7 第 ;个 数 


值 型 标识 符 的 最 大 


据 表 7 第 ;个 数值 型 标准 符 的 最 小 值 。 


分 类 型 交 


E 标 识 符 属 1 
为 度量 依据 ， 参 照 泛 化 
性 


c 二 全 ， 
生 7 Ar 与 元 组 1 第 i 


dist(t,A',t,A) ， 公式 如 下 。 


dist(t,Ai ,1, A’) 


假设 一 个 记录 有 a， 


len(t, Ar 


值 ，min(74'" ) 表示 数 


生 间 的 距离 计算 需要 引入 泛 化 层次 树 作 
层次 树 首先 计算 元 组 1, 第 i 个 分 类 型 属 
个 分 类 型 属性 1 A 到 共同 最 小 祖先 节点 的 
距离 , 记 为 len(1,Ar，1,A) ; 然后 计算 1 Ar ，1 A' 各 自 
的 距离 lenlt, 4 ,roo1) ; 最 后 计算 分 类 型 准 标 识 符 


到 根 节 点 
属性 间 的 距离 


9 (4) 


len(t, A ,root)+ 


len(t, 4 ,root) 


个 数值 型 准 标识 符 ，q, 个 分 类 型 准 标 
识 符 ， 记 录 间 的 距离 为 dist(1,4,) 。 


dl d; 
distltpst) = Ddist(t, A st A) + Ddistlt, A sks) ， (5) 


b) 栏 划 分 


为 减少 数据 间 关 系 的 损失 量 , 将 每 个 桶 纵向 划分 成 多 个 栏 。 


其 思想 是 针对 每 个 桶 


i 


节点 集 对 应 的 属性 划 


， 首 先 将 包含 敏感 属性 的 顶点 v 所 包含 的 
分 到 一 栏 。 再 遍历 非 敏 感 属 性 关联 关系 集 
合 rset 中 每 一 个 顶点 v,， 计 算 桶 中 满足 顶点 v 约束 的 记录 数 。 

按 记 录 数 降序 排序 yset 后， 按照 从 前 往 后 的 次 序 依 次 取出 顶 


则 对 


随机 
其 他 


性 间 


T 中 出 现 的 概率 ， 若 低 于 阐 值 / ， 则 需 对 其 所 在 的 栏 进行 该 属 


惊 性 进行 
c) 数据 重 排 


久 匀 分 栏 ， 否 则 将 剩余 属性 


直接 作为 一 栏 。 


段 设 桶 中 


的 属性 共 划 分 为 c 栏 ， 则 对 桶 中 任意 c-1 栏 进行 


重 排 ， 重 排 


后 ， 若 有 记录 仍 处 于 原来 位 置 ， 则 将 其 与 桶 


中 


记录 随机 


的 关联 关系 。 
d) 栏 概 化 


换 。 因 此 同 栏 中 高 关联 属性 间 的 关联 关系 保 
不 变 ， 和 破坏 的 是 不 同 栏 之 间 的 关联 关系 ， 从 而 保持 了 高 关联 


EE 
村 


必 


为 使 数据 表 7 满足 k- 匿名 性 。 检 查 桶 中 某 属性 值 在 数据 表 


it 


可 
三 可 


性 列 的 概 化 ; 列 概 化 后 ， 计 算 栏 中 不 重复 的 记录 数 等 于 K 的 栏 


a 
量 ， 


算法 2 LS 算法 


输入 : 


1， 栏 中 属性 最 大 数量 mc ， 


数据 表 7 ， srset ，rset ，k- 匿名 性 


栏 中 最 小 


若 栏 数 <2， 则 对 整个 桶 进行 概 化 。 


参数 - ，]- 多 样 性 参数 


属性 数量 nc 


输出 : 
, 
2 
也 


21. 


22: 


匿名 后 的 数据 表 7 


while (srset 不 为 空 且 了 


中 存在 未 处 理 的 记录 ) 


从 srser 中 按 从 前 往 后 的 次 序 取出 顶点 Vi 


从 数据 表 中 随机 取出 一 条 满足 顶点 y 


取出 与 1 距离 最 近 且 满足 敏感 属性 栏 值 约束 的 记录 ， 加 入 桶 B 中 ; 


end while 


for (每 一 个 顶点 y, e rset ) 


计算 桶 中 满足 顶点 y 约束 的 记录 数 jf; 


end for 


按 记 录 数 nt 降序 排序 rset 中 各 个 顶点 ; 


到 其 他 栏 的 属性 ; 
若 剩余 属性 列 数 > nc ， 将 其 划分 为 一 栏 ， 否 则 放弃 该 态 
end for 


若 桶 中 剩余 的 未 划分 栏 的 属性 列 数 > mc ,对 


则 将 剩余 属性 直接 作为 一 栏 
忆 总 共 被 划分 如 栏 ， 则 对 其 中 1 
重 排 后 , 若 存在 记录 仍 处 于 原来 位 置 ， 则 
换 ; 


若 桶 


将 顶点 包含 的 节点 集 对 应 的 属性 划 为 一 


约束 的 记录 + ， 加 入 桶 Bp ; 


栏 ; 


or ( 按 从 前 往 后 的 次 序 从 rset 中 取出 顶点 y,) 
找 出 vy 包含 的 各 节点 在 桶 B 中 对 应 的 属性 ， 并 去 除 其 中 已 经 被 分 配 


分 ; 


属性 进行 均匀 分 栏 ; 否 


栏 进行 随机 重 排 ; 
将 其 与 桶 中 其 他 记录 随机 置 


检查 桶 中 某 属 性 值 在 数据 表 中 出 现 的 概率 ; 


若 低 于 阔 值 f ， 则 需 对 其 所 在 的 栏 进行 该 属性 列 的 概 化 ; 
列 概 化 后 ， 计 算 栏 中 不 重复 的 记录 数 等 于 k 的 栏 数量 ， 若 栏 数 <2， 


则 对 整个 桶 进行 泛 化 。 


录用 稿 王 芳 ， 等 ; 基于 局 部 划分 的 匿名 算法 研究 
数据 表 的 匿名 方法 。 其 基本 思想 是 先 横向 划分 数据 表 ， 将 整个 点 w， 找 出 v 中 所 包含 的 各 节点 所 对 应 的 桶 中 属性 ， 并 去 除 其 
数据 表 划 分 成 多 个 桶 ， 然 后 分 别 对 每 个 桶 进行 纵向 划分 ， 将 一 中 已 经 被 分 配 的 属性 ， 若 剩余 属性 数量 大 于 或 等 于 设 定 的 栏 中 
个 桶 划分 为 多 栏 ， 其 结果 是 同一 属性 在 不 同 桶 中 不 一 定 在 同 最 小 属性 数量 ， 则 将 其 划分 为 一 栏 ， 否 则 放弃 该 划分 。 最 后 ， 
栏 。 从 而 确保 既 减少 信息 损失 量 , 又 减少 数据 间 关 系 的 损失 量 。 若 桶 中 剩余 的 未 被 纵向 划分 的 属性 列 数 大 于 栏 中 最 大 属性 数量 
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录用 稿 王 芳 ， 等: 基于 局 部 划分 的 匿名 算法 研究 
23. end while 采用 Slicing 算法 处 理 后 ， 结 果 如 表 6 所 示 ， 从 结果 可 看 
24. end while 出 ， 该 算法 将 敏感 属性 和 与 其 有 关 的 属性 划分 为 一 栏 ， 其 他 属 
25. returm 7 性 分 为 一 栏 ， 并 通过 栏 中 数据 进行 置换 来 实现 隐私 保护 。 其 结 
2.4 时 间 复 杂 性 分 析 果 满 足 3- 多 样 性 和 4- 匿 名 性 ， 达 到 了 一 定 程 度 的 隐私 保护 。 和 


ASG-LS 匿名 算法 由 两 个 子 算法 ASG 和 LS 组 成 ， 其 中 ， 泛 化 方法 相 比 ，Slicing 算法 不 仅 进行 横向 划分 ， 还 进行 了 纵向 
ASG 算法 生成 频繁 泛 化 层次 树 ， 以 及 将 频繁 泛 化 层次 树 转 为 泛 。 划分 ， 从 而 提高 了 数据 可 用 性 。 但 其 缺点 是 属性 间 的 关系 随 值 
化 格 的 时 间 复 杂 度 均 为 o0z2) ; 另外 两 个 步骤 时 间 复杂 度 均 为 ” 域 的 变化 而 变化 ， 会 损失 部 分 属性 间 的 关联 关系 。 


O(n); 所 以 子 算法 ASG 的 时 间 复 杂 度 为 o02) 。LS 算法 的 时 表 6 Slicing 算法 处 理 后 病人 记录 诊断 记录 表 
间 复 杂 度 只 与 syser 中 的 顶点 数 、 yser 中 的 顶点 数 、 以 及 大 匿 age, sex district,zipcode,disease 
名 性 参数 以 及 表 7 中 的 记录 数 n 有 关 。 顶 点 数 与 x 值 远 小 于 22, M California, 47905, endemictyphus 
n， 因 此 时 间 复 杂 度 为 (wr?)。 所 以 ASG-LS 算法 总 的 时 间 复 25,F Connecticut, 47302, flu 
杂 度 为 O(n?)。 26, M Bloomington, 47490, dyspepsia 
3 算法 比较 与 实验 分 析 27,F Connecticut, 47302, flu 
35, M Alaska, 47304, breastcancer 

3.1 算法 比较 40,F Washington, 47301, pnenmonia 

将 本 文 提出 的 ASG-LS 算法 与 泛 化 和 Slicing 两 类 方法 进 49, M Mississippi, 47904, breastcancer 
行 比较 。 根 据 某 家 医院 的 病人 诊断 记录 原始 表 ， 如 表 4 所 示 ， 50,F Washington, 47301, bronchitis 
泛 化 首先 把 距离 较 近 的 记录 划分 到 同一 个 等 价 类 ， 然 后 概括 等 采用 本 文 的 ASG-LS 算法 处 理 后 如 表 7 所 示 。 整 个 表 被 分 


价 类 中 各 属性 所 有 列 中 的 值 ， 如 表 5 所 示 。Slicing 横向 划分 将 ”为 两 个 桶 ， 每 个 桶 各 自 被 划分 为 两 栏 。 从 结果 不 难 发 现 ， 其 满 
距离 较 近 的 记录 划分 到 同一 个 桶 中 ， 纵 向 全 局 划分 将 高 关联 关 足 4- 匿 名 性 与 3- 多 样 性 ,能 较 好 地 满足 隐私 保护 要 求 .与 Slicing 


系 的 数据 划分 到 同一 栏 中 ， 最 后 随机 重 排 同 栏 中 的 数据 ， 如 表 ”算法 划分 后 同一 属性 在 不 同 桶 中 必 在 同一 栏 不 同 ， 由 ASG-LS 
6 所 示 。 算法 纵向 划分 后 ， 利 用 在 不 同 桶 中 ， 同 一 属性 被 划分 到 不 同 栏 
表 4 病人 诊断 记录 原始 表 的 方法 ， 更 多 地 保留 了 属性 之 间 的 关联 关系 ， 从 而 大 大 提高 了 
Name Age sex District Disease 数据 的 可 用 性 。 
Tom 22 M Hawaii bronchitis 表 7 ASG-LS 算法 处 理 后 的 病人 记录 诊断 记录 表 
Lily 27 F California breastcancer Age,Sex District,Zipcode,Disease 
Hebe 35 F California pnenmonia 22, M Bloomington,47490,dyspepsa 
John 49 M Connecticut flu 25,F Connecticut,47302,flu 
Ella 59 M Connecticut flu 26, M California,47905,endemictys 
GO Selina 60 F Mississippi breastcancer 27;F Connecticut, 47302,flu 
Bob 65 M Washington gastritis Age,District,Zipcode Sex, Disease 
Lau 70 FF Alaska breastcancer 35,Washington,47490 F, breastcancer 
对 表 4 中 数据 进行 泛 化 处 理 后 ， 结 果 如 表 5 所 示 ， 从 表 中 40,Connecticut,47302 F, breastcancer 
可 看 出 ,该 结果 满足 4- 匿 名 性 和 3- 多 样 性 ， 使 发 布 的 数据 表 满 49, Alaska, 47304 M, bronchitis 
足 了 一 定 程度 的 隐私 保护 要 求 ， 但 数据 过 度 泛 化 导致 数据 的 信 50, Mississippi, 47904 M, pnenmonia 
息 损 失 量 过 大 ， 数 据 可 用 性 很 低 。 3.2 ”实验 分 析 
表 5 泛 化 后 的 病人 诊断 记录 表 从 信息 损失 量 03 和 数据 可 用 性 两 个 方面 对 本 文 提 出 的 
age sex district zipcode disease ASG-LS 算法 的 性 能 进行 验证 。GAA-CP04 是 信息 损失 量 较 小 
21-27] * America 47* flu 的 泛 化 处 理 算法 , 其 具有 一 定 优秀 泛 化 算法 的 代表 性 。 但 GAA- 
21-27] * America 47* endemictyphus CP 只 满足 K- 匿 名 ， 为 使 能 更 好 的 对 比 将 其 满足 I- 匿 名 ， 记 为 
21-27] * America 47* flu LGAA-CP。Slicingt1sl 算 法 中 的 值 为 桶 中 记录 数 的 最 小 值 。 
21-27] * America 47* dyspepsia 实验 数据 集 来 源 于 隐私 保护 领域 广泛 使 用 的 Adult 数据 集 。 
35,50] * America 47* pnenmonia 在 去 除 该 数据 集中 具有 缺失 属性 值 的 记录 后 ， 最 终 实 验 基 于 一 
35,50]  * America 47* bronchitis 个 包含 30162 个 元 组 的 数据 集 完 成 。 实 验 环境 为 : Intel® Core™ 
35,50] 来 America 47* breastcancer i5-2450M CPU (@2.50GHz; 4.00 GB 内 存 ; LITEON T9 (256 GB) 
35,50] * America 47* breastcancer 主人 硬盘 ，Windows 10 专业 版 64 位 操作 系统 ; MySQL 数据 库 系 
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统 ，IntelliJj IDEA2017.2.5 开发 环境 ;jdk8 运行 环境 。 


Java 语言 实现 。 
3.2.1 信息 损失 分 析 
为 分 析 数 据 信息 损失 量 随 数 据 集 维度 


算法 采用 


匿名 参数 x 值 


i ee 


Slicing 算法 进行 如 下 两 组 实验 。 

实验 1 当 数 据 维度 |7,| 分 别 为 5、 
法 中 匿名 参数 上 值 的 变化 对 
1(a)(b)(c) 所 示 。 其 中 栏 中 属性 最 大 数量 mc =4, 栏 中 
量 ze=2， 置 信 度 阔 值 confTh =0.8， 支 持 度 闹 值 
上 多 样 性 参数 j=3。 


10、14 时 ， 


-一 4 一 LGAA-CP 
一 看- 一 ASG-LS 
全- 一 Slicing 


(a) [7,|=5 


一 4 一 LGAA-CP 
一 时 一 ASG-LS 
外 一 Slicing 


Information loss 


on 
办 
EE 
各 
:名 
己 
EE 
三 
避 
| 


(c) [T,|=14 


图 1 


实验 结果 表明 ， 妆 数据 维度 相同 时 ， 随 者 x 值 


言 息 损失 量 大 小 的 影响 。 


验证 三 种 算 
结果 如 图 
最 小 属性 数 
upTh = 0.2， 


匿名 参数 K 值 的 变化 对 信息 损失 量 影 响 


的 增 大 ， 三 


chin na 人 人 介 四 nn 
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实验 2 ” 当 匿 名 参数 分别 为 10、15、20 时 ， 验 证 三 种 算 


法 中 数据 维度 |T,| 的 变化 对 信息 损失 量 大 小 的 影响 。 结 果 如 图 
2(a)(b)(c) 所 示 。 其中: 栏 中 属性 最 大 数量 mc =3, 栏 中 最 小 属性 


数量 nc =2 ,置信 度 病 值 confTh = 0.8 ,支持 度 阐 值 supTh = 0.2 ， 
大 多 样 性 参数 了 =3。 


-一 全 LGAA-CP 
-一生 -一 人 SG-LS 
外 Slicing 


yl 
iD 他 
wm 


S 
汉 | 


nformation los 
一 
iD 


-一 人 一 LGAA-CP 
-一目 一 ASG-LS 
外 一 Slicing 


10 
data dimension 


data dimension 


(c) k=20 
图 2 数据 维度 |Z,| 变化 对 信息 损失 量 影响 

en eb eos 思 | 的 
增 大 ， 三 者 的 数据 信息 损失 量 都 增 大 。 但 LGAA-CP 的 信息 损 
A 
同样 因为 Slicing 和 ASG-LS 进行 的 都 是 局 部 泛 化 处 理 , 其 信息 
损失 量 较 小 ， 且 增 速 较 慢 。 
3.2.2 数据 可 用 性 分 析 

关联 关系 保持 率 AR 是 数据 匿名 处 理 后 保留 的 关联 规则 数 


者 的 数据 信息 损失 量 都 增 大 ， 但 LGAA-CP 的 信息 
增 大 。Slicing 和 ASG-LS 的 信息 损失 量 增加 很 少 ， 
一 致 ， 因 为 Slicing 和 ASG-LS 都 是 进行 的 局 


,损失 量 显著 
且 两 者 基本 


部 的 泛 化 处 理 。 


与 原始 数据 关联 规则 数 的 比值 ， 用 于 衡量 匿名 方法 在 保留 属性 
间 有 用 关联 关系 效果 。 本 文采 用 Weka Apriori 挖掘 关联 规则 。 
为 了 分 析 匿 名 后 数据 的 关联 关系 保持 率 随 数据 集 维度 |Tal、 
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-匿名 对 应 磊 值 改变 而 改变 的 规律 ， 分 别 采 用 ASG-LS 算法 、 


LGAA-CP 和 Slicing 算法 进行 如 下 两 组 实验 。 
实验 3 ” 当 数 据 维度 |7,| 分 别 为 5$、10、14 时 ， 验 证 三 种 算 


法 中 匿名 参数 上 值 的 变化 对 关联 关系 保持 率 的 影响 。 
中 最 小 属性 


3(a)~(c) 所 示 。 其 中 : 栏 中 属性 最 大 数量 mc =4， 栏 
数量 mc =2 ,置信 度 阀 值 confTh = 0.8 ,支持 度 阀 值 supTh = 0.2 ， 


I- 多 样 必 


FE 参数 [=3。 


© |, 


—$— LGAA-CP 


一 号- 一 ASG-LS 


全 -一 Slicing 


| =5 


-一 人 一 LGAA-CP 


一 是 - 一 ASG-LS 


在 Slicing 


-一 4 一 LGAA-CP 
一 各 一 ASG-LS 


一 全 一 Slicing 


(©) [71,714 


图 3 


结果 表明 ， 


当 数据 维 


实验 


的 > 


系 保持 率 是 一 样 


原因 是 当 维 


联 规 则 比较 少 ， 且 很 多 数据 


结果 如 图 


匿名 参数 大 值 的 变化 对 关联 关系 保持 率 影响 

数 |7,|=5 时 ， 三 个 算法 的 关联 关 
度 较 小 时 ， 原 始 数 据 具 有 的 关 
身 特性 已 满足 -匿名 性 ， 所 以 对 


算法 的 依赖 性 不 强 。 而 当 


LGAA-CP 算法 关联 关系 保持 


Slicing 算法 关联 关系 保持 率 
Slicing 之 上 。 因 为 ASG-LS 


数据 维 


率 大 幅度 减少 ， 


部 划分 。 


度 为 10 和 14 时 , 随 x 值 增加 ， 

ASG-LS 算法 和 
各 有 下 降 ， 但 ASG-LS 始终 保持 在 
和 Slicing 都 是 进行 的 局 
理 ， 且 ASG-LS 是 进行 的 是 局 


部 泛 化 处 


合作 期 刊 
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实验 4 ” 当 匿 名 参数 分别 为 10、15、20 时 ， 验 证 三 种 算 


法 中 数据 维度 |T,| 的 变化 对 关联 关系 保持 率 的 影响 。 
属性 最 大 数量 mc =3， 栏 


4(a)(b)(c) 所 示 。 其 


Ph : 栏 中 


二 直 
结果 


[图 


中 最 小 属性 


数量 nc =2 ,置信 度 病 值 confTh = 0.8 ,支持 度 阀 值 supTh = 0.2 ， 


LL 多 样 性 参数 / -3。 


-一 4 一 LGAA-CP 


一 熏 一 ASG-LS 


二 


Slicing 


图 4 数据 维度 |7 变化 对 关 
村 率 急 速 下降 ， 原 因 是 数据 维度 从 5 增加 到 8 


实验 结果 表明 
间 时 关联 关系 保 


OO 
data dimension 


(a) k=10 


—$— LGAA-CP 


一 量 一 ASG-LS 


友 


Slicing 


data dimension 


(b) k=15 


—$— LGAA-CP 


一 是 - 一 ASG-LS 


Slicing 


data dimension 


(c) k=20 


其 关系 保持 率 影响 


时 ,原始 数据 中 
[| 从 8 增加 到 14 


持 率 平缓 减少 ,但 


LGAA-CP 。 


4 ”结束 语 


有 的 关联 关系 数量 显著 增加 。 而 当 数 据 维 


数据 维度 


,| 取 值 在 5 到 8 之 


度 


时 ， 三 种 算法 随 数据 维 


度 增 加 ， 关 联 关系 保 


于 ASG-LS 采取 的 是 小 局 部 的 泛 化 处 理 和 
局 部 划分 , 最 终 导致 ASG-LS 的 关联 关系 保持 率 大 于 Slicing 和 


为 了 确保 在 隐私 信息 不 被 泄露 的 情况 下 ， 提 高 数据 匿名 后 


的 可 用 性 ， 本 文 提 出 了 一 种 基于 局 部 划分 的 匿名 算法 研究 。 该 
算法 借助 Slicing 的 思想 ,在 确保 KK- 匿 名 性 和 LL- 匿 名 的 前 提 下 ， 

基于 敏感 属性 栏 值 约束 和 记录 间距 离 将 数据 表 横 向 分 成 若干 个 
桶 ， 然 后 对 每 个 桶 基于 属性 间 的 关联 纵向 分 成 多 栏 ， 最 后 对 同 
桶 中 各 栏 中 的 数据 进行 随机 重 排 。 实 验 结果 表明 ， 该 方法 在 
减少 信息 损失 量 和 提高 关联 关系 保留 率 方面 具有 较 高 的 合理 性 
和 有 效 性 。 
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